视觉变压器(VIT)在各种计算机视觉任务中的成功促进了该无卷积网络的不断增长。 VIT在图像贴片上工作的事实使其可能与拼图拼图解决的问题有关,这是一项经典的自我监督的任务,旨在重新排序洗牌的顺序图像贴片回到其自然形式。尽管它很简单,但已证明解决拼图拼图对使用卷积神经网络(CNN)(例如自我监督的特征表示学习,领域的概括和细粒度分类)的任务有帮助。在本文中,我们探索了解决拼图拼图作为图像分类的自我监督的辅助损失,名为Jigsaw-Vit。我们展示了两种修改,可以使拼图优于标准VIT:丢弃位置嵌入和随机掩盖斑块。但是很简单,我们发现拼图vit能够改善标准VIT的概括和鲁棒性,这通常是一种权衡。在实验上,我们表明,在ImageNet上的大规模图像分类中,添加拼图拼图分支比VIT提供了更好的概括。此外,辅助任务还提高了对动物-10n,食物101N和服装的嘈杂标签的鲁棒性,也可以提高对抗性示例。我们的实施可从https://yingyichen-cyy.github.io/jigsaw-vit/获得。
translated by 谷歌翻译
多视图光谱聚类(MVSC)由于多样化的数据源而引起了越来越多的关注。但是,大多数现有作品在样本外预测中被禁止,并且忽略了模型的解释性和聚类结果的探索。在本文中,通过限制内核机框架通过共享潜在空间提出了一种新的MVSC方法。通过偶联特征双重性的镜头,我们为MVSC施加了加权内核主成分分析问题,并开发了修改的加权共轭特征二重性以制定二元变量。在我们的方法中,双重变量扮演着隐藏特征的角色,所有视图都共享了构造一个常见的潜在空间,并通过从特定的空间中学习预测来耦合视图。这种潜在空间可促进分离的簇,并提供直接的数据探索,促进可视化和解释。我们的方法只需要一个单一的特征分类,其维度独立于视图数量。为了提高高阶相关性,引入了基于张量的建模而不增加计算复杂性。我们的方法可以通过样本外扩展灵活地应用,从而极大地提高了具有固定尺寸内核方案的大规模数据的效率。数值实验验证了我们的方法在准确性,效率和可解释性方面有效,显示出明显的特征值衰减和不同的潜在变量分布。
translated by 谷歌翻译
可以将监督学习视为将相关信息从输入数据中提取到特征表示形式。当监督嘈杂时,此过程变得困难,因为蒸馏信息可能无关紧要。实际上,最近的研究表明,网络可以轻松地过度贴合所有标签,包括损坏的标签,因此几乎无法概括以清洁数据集。在本文中,我们专注于使用嘈杂的标签学习的问题,并将压缩归纳偏置引入网络体系结构以减轻这种过度的问题。更确切地说,我们重新审视一个名为辍学的经典正则化及其变体嵌套辍学。辍学可以作为其功能删除机制的压缩约束,而嵌套辍学进一步学习有序的特征表示W.R.T.特征重要性。此外,具有压缩正则化的训练有素的模型与共同教学相结合,以提高性能。从理论上讲,我们在压缩正则化下对目标函数进行偏置变化分解。我们分析了单个模型和共同教学。该分解提供了三个见解:(i)表明过度合适确实是使用嘈杂标签学习的问题; (ii)通过信息瓶颈配方,它解释了为什么提出的特征压缩有助于对抗标签噪声; (iii)它通过将压缩正规化纳入共同教学而带来的性能提升提供了解释。实验表明,我们的简单方法比具有现实世界标签噪声(包括服装1M和Animal-10N)的基准测试标准的最先进方法具有可比性甚至更好的性能。我们的实施可在https://yingyichen-cyy.github.io/compressfatsfeatnoisylabels/上获得。
translated by 谷歌翻译
作为一种强大的建模方法,分段线性神经网络(PWLNNS)已在各个领域都被证明是成功的,最近在深度学习中。为了应用PWLNN方法,长期以来一直研究了表示和学习。 1977年,规范表示率先通过增量设计学到了浅层PWLNN的作品,但禁止使用大规模数据的应用。 2010年,纠正的线性单元(RELU)提倡在深度学习中PWLNN的患病率。从那以后,PWLNNS已成功地应用于广泛的任务并实现了有利的表现。在本引物中,我们通过将作品分组为浅网络和深层网络来系统地介绍PWLNNS的方法。首先,不同的PWLNN表示模型是由详细示例构建的。使用PWLNNS,提出了学习数据的学习算法的演变,并且基本理论分析遵循深入的理解。然后,将代表性应用与讨论和前景一起引入。
translated by 谷歌翻译
本文研究了随机梯度下降(SGD)优化的高尺寸中随机特征(RF)回归的概过特性。在该制度中,我们在恒定和自适应阶梯大小的SGD设置下得出了RF回归的精确非渐近误差界,并观察了理论上和经验的双重血管现象。我们的分析显示了如何应对多种随机性源的初始化,标签噪声和数据采样(以及随机梯度),没有闭合形式解决方案,并且还超出了普通使用的高斯/球面数据假设。我们的理论结果表明,通过SGD训练,RF回归仍然概括为插值学习,并且能够通过方差的单位和单调的偏差减小来表征双重血迹行为。此外,我们还证明,与精确的最小规范内插器相比,恒定的步长SGD设置在与精确的最小规范内插器相比时不会损失收敛速度,作为在实践中使用SGD的理论典范。
translated by 谷歌翻译
Disentangement是代表学习的有用财产,其提高了种子自动编码器(VAE),生成对抗模型等变形式自动编码器(VAE),生成的对抗模型及其许多变体的可解释性。通常在这种模型中,脱离性能的增加是具有发电质量的交易。在潜空间模型的背景下,这项工作提出了一种表示学习框架,通过鼓励正交的变化方向明确地促进解剖。所提出的目标是自动编码器错误项的总和以及特征空间中的主成分分析重建错误。这具有对具有在Stiefel歧管上的特征向量矩阵的限制内核机器的解释。我们的分析表明,这种结构通过将潜在空间中的主路线与数据空间的正交变化的方向匹配来促进解剖。在交替的最小化方案中,我们使用Cayley ADAM算法 - Stiefel歧管的随机优化方法以及ADAM优化器。我们的理论讨论和各种实验表明,拟议的模型在代质量和解除戒备的代表学习方面提高了许多VAE变体。
translated by 谷歌翻译
从大型套装中选择不同的和重要的项目,称为地标是机器学习兴趣的问题。作为一个具体示例,为了处理大型训练集,内核方法通常依赖于基于地标的选择或采样的低等级矩阵NYSTR \“OM近似值。在此上下文中,我们提出了一个确定性和随机的自适应算法在培训数据集中选择地标点。这些地标与克尼利克里斯特步函数序列的最小值有关。除了ChristOffel功能和利用分数之间的已知联系,我们的方法也有限决定性点过程(DPP)也是如此解释。即,我们的建设以类似于DPP的方式促进重要地标点之间的多样性。此外,我们解释了我们的随机自适应算法如何影响内核脊回归的准确性。
translated by 谷歌翻译
在机器学习或统计中,通常希望减少高维空间$ \ mathbb {r} ^ d $的数据点样本的维度。本文介绍了一种维度还原方法,其中嵌入坐标是作为半定程序无限尺寸模拟的溶液获得的正半定核的特征向量。这种嵌入是自适应和非线性的。我们对学习内核的弱者和强烈的平滑假设讨论了这个问题。我们的方法的主要特点是在两种情况下存在嵌入坐标的样本延伸公式。该外推公式产生内核矩阵的延伸到数据相关的Mercer内核功能。我们的经验结果表明,与光谱嵌入方法相比,该嵌入方法对异常值的影响更加稳健。
translated by 谷歌翻译
Designing experiments often requires balancing between learning about the true treatment effects and earning from allocating more samples to the superior treatment. While optimal algorithms for the Multi-Armed Bandit Problem (MABP) provide allocation policies that optimally balance learning and earning, they tend to be computationally expensive. The Gittins Index (GI) is a solution to the MABP that can simultaneously attain optimality and computationally efficiency goals, and it has been recently used in experiments with Bernoulli and Gaussian rewards. For the first time, we present a modification of the GI rule that can be used in experiments with exponentially-distributed rewards. We report its performance in simulated 2- armed and 3-armed experiments. Compared to traditional non-adaptive designs, our novel GI modified design shows operating characteristics comparable in learning (e.g. statistical power) but substantially better in earning (e.g. direct benefits). This illustrates the potential that designs using a GI approach to allocate participants have to improve participant benefits, increase efficiencies, and reduce experimental costs in adaptive multi-armed experiments with exponential rewards.
translated by 谷歌翻译
Kernels are efficient in representing nonlocal dependence and they are widely used to design operators between function spaces. Thus, learning kernels in operators from data is an inverse problem of general interest. Due to the nonlocal dependence, the inverse problem can be severely ill-posed with a data-dependent singular inversion operator. The Bayesian approach overcomes the ill-posedness through a non-degenerate prior. However, a fixed non-degenerate prior leads to a divergent posterior mean when the observation noise becomes small, if the data induces a perturbation in the eigenspace of zero eigenvalues of the inversion operator. We introduce a data-adaptive prior to achieve a stable posterior whose mean always has a small noise limit. The data-adaptive prior's covariance is the inversion operator with a hyper-parameter selected adaptive to data by the L-curve method. Furthermore, we provide a detailed analysis on the computational practice of the data-adaptive prior, and demonstrate it on Toeplitz matrices and integral operators. Numerical tests show that a fixed prior can lead to a divergent posterior mean in the presence of any of the four types of errors: discretization error, model error, partial observation and wrong noise assumption. In contrast, the data-adaptive prior always attains posterior means with small noise limits.
translated by 谷歌翻译